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学 科 数 据 知识 库 的 政策 调研 与 分 析 
由 容许 可 全 上 -用 
以 生命 科学 领域 为 例 
孙 轶 楠 “” 顾 立 平 ， 宋 秀 芳 ，” 刘 晶 晶 ” 江 娴 ” 
!( 中 国 科 学 院 文 献 情 报 中心 ”北京 100190) 
2( 中 国 科学 院 武汉 文献 情报 中 心 ”武汉 430071) 
3( 中 国 科 学 院 大 学 ”北京 100049) 
摘要 : 【 目的 】 聚焦 生命 科学 数据 知识 库 政 策 ， 为 政策 实施 提供 建议 。[ 方法 】 通过 人 工 阅 读 、 筛 选 的 方法 对 有 
明确 政策 声明 的 38 个 生命 科学 领域 的 数据 知识 库 进 行 调 研 ， 主 要 针对 数据 知识 库 在 数据 提交 、 数 据 管理 和 数据 


使 用 等 方面 的 政策 声明 。[ 结果 】 学科 数据 知识 库 的 利益 相关 群体 (数据 提交 者 、 数 据 管理 者 、 数 据 使 用 者 ) 各 自 
的 数据 权益 管理 规范 不 同 。[ 局 限 ] 仅 调 研 38 个 生命 科学 领域 的 案例 , 没有 对 政策 要 素 的 时 序 变 化 进行 分 析 , 对 
政策 执行 细节 探讨 还 有 所 从 缺 。[ 结论 ] 良好 的 学 科 数 据 知识 库 政策 体系 应 当 包括 : 数据 提交 政策 (内 容 界 定 、 格 式 
规范 、 来 源 要 求 、 归 属 说 明 )、 数 据 管理 声明 (数据 公开 、 数 据 注 册 、 免 责 声 明 、 数 据 版 本 管理 ) 以 及 数据 使 用 规 


范 ( 数 据 访问 、 数 据 推荐 引用 、 数 据 授 权 许 可 )。 
关键 词 : 科研 数据 数据 知识 库 ”政策 研究 ”数据 管理 
分 类 号 : G353.1 G250.76 QI1 


服务 ”生命 科学 


学 科 数 据 知识 库 政 策 是 学 科 领 域 数 据 
共享 的 推进 器 


科学 数据 是 科学 研究 不 可 或 缺 的 主要 组 成 部 分 "1。 
目前 , 国际 上 主要 科研 资助 机 构 钻 著名 科研 教育 机 
构 钻 、 国 际 主流 学 术 期 刊 外 都 纷 纷 制定 数据 政策 , 要 求 
科研 数据 在 数据 知识 库 上 进行 存储 与 传播 , 并 且 , 近 
期 发 展 的 数据 期 刊 也 与 数据 知识 库 相 结合 中 ,共同 推 
进 科 研 数 据 开 放 共 享 。 

数据 知识 库 主 要 分 为 机 构 数据 知识 库 、 学 科 数 据 
知识 库 、 多 学 科 数 据 知识 库 以 及 特定 项 目 数据 知识 库 
4 类 中。 学 科 数 据 知 识 库 是 针对 特定 学 科 领 域 , 具有 更 
强 系 统 化 与 专业 化 服务 能 力 的 数据 知识 库 , 受众 范 
围 广 , 针对 程度 强 , 倍 受 不 同 领 域 科研 人 员 的 青睐 。 
学 科 数 据 库 的 研究 重点 不 在 于 数据 库 本 身 的 构建 ， 
而 在 于 科研 人 员 或 图 书馆 员 对 数据 进行 提交 、 管 理 以 


及 使 用 时 要 遵循 的 权利 与 义务 , 为 数据 提供 者 、 数 据 
管理 者 以 及 数据 使 用 者 之 间 建 立 起 信任 枢纽 (Trust 
Relationship)。 目 前 , 学 科 数 据 知 识 库 的 政策 研究 主要 
有 三 方面 的 研究 背景 : 

(1) 图 书馆 员 向 科研 人 员 介 绍 数据 管理 服务 (简称 
DMS)、 推 荐 数据 知识 库 时 有 所 依据 , 许多 图 书馆 已 经 
正在 发 展 DMSI9; 

(2) 图 书馆 或 数据 中 心 建设 数据 知识 库 时 ， 完 善 
的 政策 体系 是 必要 条 件 ， 国 内 有 许多 专家 正在 积极 从 
事 这 方面 的 实践 工作 

(3) 数据 知识 库 作为 数据 出 版 与 发 布 的 主要 基 
础 设施 ,国内 在 数据 开放 共享 上 已 有 许多 理论 与 实 
幅 四 1， 

学 科 数 据 知识 库 的 政策 研究 可 以 推进 以 上 三 方面 
的 实践 进展 。 

本 研究 聚焦 生命 科学 领域 数据 知识 库 案例 ， 系 统 


通讯 作者 : 顾 立 平 , ORCID: 0000-0002-2284-3856, E-mail: gulp@mail.las.ac.cn。 
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434) 的 研究 成 果 之 一 。 
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研究 扩 


地 梳理 7 项 子 学科 领 域 下 , 利益 相关 者 的 权利 与 义务 ， 
总 结 政策 要 素 , 提供 管理 规范 框架 。 
2 研究 设计 
2.1 研究 思路 

本 人 研究 系统 地 梳理 和 观测 生命 科学 领域 数据 知识 
库 的 政策 , 设计 人 研究 框架 , 研究 分 为 三 个 问题 : 

(1) 作为 数据 提交 者 , 享有 哪些 权利 ?需要 遵守 
哪些 义务 ? 

(2) 作为 数据 知识 库 的 管理 者 (数据 知识 库 本 身 )， 


权益 管理 有 哪些 ? 

(3) 作为 数据 的 使 用 者 , 享有 哪些 权利 ?在 使 用 
数据 时 需要 遵守 哪些 规范 ? 
2.2 ”研究 对 象 

根据 re3data.org 的 记录 (截至 2015 年 7 月 29 日 ), 共 
有 1 305 个 数据 知识 库 。 其 中 生命 科学 (Life Sciences) 
领域 有 648 个 数据 知识 库 , 572 个 开放 共享 (1 笔者 参考 
Scientific Data 的 推荐 清单 及 分 类 , 选取 其 中 网 站 上 有 
明确 政策 的 38 个 生命 科学 领域 的 数据 知识 库 作 为 案例 
进行 调研 RY， 如 表 1 所 示 : 


表 1 生命 科学 数据 知识 库 分 类 
分 类 知识 库 
核酸 序列 GenBankt"; 基因 组 变异 数据 库 (DGVa)P2; 欧洲 生物 信息 研究 所 (EMBL-EBD™1; 欧洲 核 
的 酸 数 据 库 (ENA)P; GO(Gene Ontology)P51; 国际 核酸 序列 数据 库 协 作 体 INSDC)P4; NCBI 


(Nucleic Acid Sequence) 


蛋白 质 序列 


(Protein Sequence) 


分 子 和 超 分 子 结构 


(Molecular & Supramolecular Structure) 


(EMDB)B35; 蛋白 


神经 科学 NeuroMorpho.Org( 神 经 元 形态 数据 库 )B8 
(Neuroscience) OpenfMRICO 

组 学 ArrayExpress 数据 库 中 ; GEO 数据 
(Omics) PeptideAtlasm]; 欧洲 基因 


生物 分 类 及 物种 多 样 性 
(Taxonomy & Species Diversity) 


好 基因 组 当 
生命 科学 学 科 共 同体 资源 
(Life-science Community Resources) es 

(BioGRID)” ; 


Sequence Read Archive (SRA)P 
杰克 运 实 验 室 P9; PDBe AutoDepP9; 通 
X 射线 衍射 成 像 数 据 库 (CXIDB)P20; 晶体 


(BMRB) 1; Chemical Entities of Biological Interest(ChEBDB49; 电子 显微镜 数 
质 圆 二 色谱 数据 库 (PCDDB)B9; 全 球 蛋白 质数 据 库 (wwPDB)B71 


用 蛋白质 资源 库 (UniProbP9l 


学 开放 式 数 据 库 (COD)B2; 生 


萄 磁 共 振 数 据 库 
据 库 


; 神经 影像 学 信息 工具 和 资源 中 心 (NITRC)B2?1; 


库 呈 ; dbGaP“; 蛋白 质 相互 作用 数据 库 (DIPTMJF 
组 表 型 档案 网 站 (EGA)89; PRIDE 数据 库 吕 1 


综合 分 类 信息 系统 (TIS)"Y; 全 球 生物 多 样 性 信息 设施 (GBIF)" 


库 (MGDE9; EuPathDB50; FlyBase "1; Xenbase53; 美国 国家 吸毒 和 艾滋 病 
目的 ; 流感 研究 数据 库 (IRD)E5; ClinicalTrials.gov59; 生物 通用 存储 库 
癌症 和 肿瘤 成 像 存档 (TCIA)59 


3 数据 提交 政策 


(1) 对 提交 的 数据 内 容 有 明确 界定 

数据 知识 库 通 常 界 定 收录 内 容 , 若干 生命 科学 领 
域 子 类 别 有 比 较 详 细 的 说 明 。 例 如 , DGVa 只 接受 经 过 
处 理 的 结构 变异 数据 ， 以 及 与 该 研究 有 关 的 信息 , 包 
括 试验 者 /样品 ,实验 协议 和 应 用 分 析 ; PDBe AutoDep 
提交 生物 核磁 共振 数据 ; CXIDB 提交 相干 X 射线 衍射 
成 像 (CXD 实 验 数据 ; GEO 提交 基因 表达 式 和 杂交 阵 
列 数据 。 由 于 生命 领域 学 科 的 特殊 性 , 不 同类 别 的 生 
命 科学 数据 知识 库存 储 的 数据 类 型 不 一 样 , 因此 数据 
内 容 也 就 不 尽 相同 。 

(2) 对 提交 的 数据 格式 应 有 明确 规定 

按照 学 科 社 群 通用 的 软件 、 工 具 以 及 传输 与 共享 


现代 图 书 情报 技术 


的 范式 进行 统一 化 规范 。 例 如 , DGVa 要 求 以 Excel 电 
子 表格 和 /或 以 TAB 作为 分 隔 符 的 文本 文件 格式 提交 
的 数据 ; UniProt 鼓励 用 UniProtKB/Swiss-Prot 数据 的 
形式 提交 数据 ， 并 希望 提交 者 能 提供 关于 所 要 提交 数 
据 的 文字 描述 ; BMRB 要 求 的 格式 是 数据 交换 格式 ， 
所 有 数据 都 以 NMR-STAR 格式 存储 ; EuPathDB 的 格 
式 要 求 是 所 有 可 用 序列 的 FASTA 文件 , 具有 完整 基因 
信息 的 GFF 文件 ,以 及 其 他 格式 文件 。 

(3) 要 求 数据 提交 者 提交 的 数据 符合 科学 伦理 

数据 知识 库 的 提交 政策 中 往往 包括 一 项 声明 ,要 
求 数据 提交 者 所 提交 的 数据 不 能 来 自 违 反 科 学 伦理 的 
实验 或 者 采集 ， 即 : 编辑 出 版 不 会 传播 违背 科学 良知 
的 行为 产物 。 这 意味 着 存储 在 数据 知识 库 中 的 数据 本 
身 不 存在 伦理 道德 的 争议 ,例如 , GenBank 规定 如 果 提 


交 的 数据 涉及 到 人 类 序列 数据 , 则 不 能 包括 任何 可 能 
揭示 数据 提供 者 个 人 身份 的 数据 。 

(4) 需要 有 明确 的 数据 归属 说 明 

著作 权 包 括 精 神权 利和 财产 权利 。 精 神权 利 是 不 
可 剥夺 的 权利 , 例如 数据 提供 者 的 署名 。 财 产权 利 需 
要 数据 知识 库 明 确 声明 ,数据 知识 库 的 管理 团队 和 负 
责 人 也 需要 在 数据 提交 政策 中 明确 在 数据 提交 后 将 会 
如 何 处 理 数据 等 。 例 如 , ArrayExpress 规定 ， 提 交 的 数 
据 由 专门 的 生物 管理 团队 进行 管理 , 或 者 每 周 从 
NCBI 基因 表达 式 综合 数据 库 系统 地 导入 。 

数据 提交 政策 是 任何 类 型 数据 知识 库 政策 所 应 该 
有 且 必 须 有 的 政策 基础 。 科 研 人 员 向 数据 知识 库 提交 
数据 之 后 ,更 加 关注 的 是 自己 的 数据 是 否 可 以 得 到 充 
分 的 保护 以 及 合理 的 传播 使 用 ,这 是 建立 数据 提交 者 
与 数据 知识 库 管 理 者 之 间 相 互信 任 桥梁 的 基石 。 因 此 ， 
数据 管理 声明 和 数据 使 用 规范 是 数据 知识 库 政策 研究 
的 重点 。 


4 数据 管理 声明 


4.1 鼓励 数据 提交 者 尽快 公开 数据 

数据 的 公开 途径 与 方式 是 数据 知识 库 管理 政策 的 
基础 ， 数据 的 使 用 、 传 播 、 更 改 等 行为 都 是 基于 数据 
在 严格 且 正 确 的 公开 途径 下 进行 。 数 据 公 开 的 途径 通 
常 有 三 类 : 

(1) 数据 提交 者 获得 一 组 账号 和 密码 ， 能够 自己 
使 用 或 者 课题 组 内 使 用 ; 

(2) 除了 数据 提交 者 外 , 学 术 同 行 也 能 使 用 数据 ， 
这 主要 是 用 于 学 术 出 版 所 需 的 同行 评审 ; 

(3) 在 数据 提交 后 ,数据 完全 开放 ,任何 人 都 可 
以 使 用 该 数据 。 

数据 公开 途径 可 能 只 有 上 述 一 种 , 也 可 能 经 历 多 
种 途径 ,这 就 涉及 到 数据 公开 的 时 间 以 及 数据 知识 
的 政策 。 例 如 , EMDB 的 数据 公开 途径 就 是 第 三 种 情 
况 , 该 数据 知识 库 教 励 提交 者 尽快 公开 发 布 他 们 的 数 
据 ， 而 不 是 搁置 他 们 的 数据 。 
4.2 ”为 数据 提交 者 分 配 编号 ID 

发 表 在 学 术 期 刊 上 的 学 术 论 文通 常 标识 着 作者 、 
题名 、 刊 名 、 卷 期 号 、 页 码 等 , 无 论 发 布 在 哪个 平台 
上 都 可 被 识别 并 作为 引用 对 象 。 科 研 数据 也 可 能 存储 
在 不 同 的 发 布 平 台 上 , 这 就 需要 有 一 套 认 证 机 制 来 保 
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护 科 研 人 员 的 权益 。 目 前 ， 有 三 类 常用 途径 : 通用 的 数 
字 资 源 唯一 标识 符 ， 如 DOIE9 等 ; 作者 唯一 标识 符 ， 如 
ORCIDIGO 等 ; 数据 库 的 URNs 或 数据 编号 (Accession 
No., 简称 “编号 ID”), 以 生命 科学 领域 而 言 , 数据 知识 
库 分 配 编号 ID 往往 已 在 领域 内 形成 认可 和 识别 科研 
数据 产生 的 一 套 约定 俗 成 的 规范 , 许多 生命 科学 数据 
知识 库 有 其 分 配 编号 ID 的 服务 机 制 。 例 如 , DGVa 在 
对 数据 存档 后 , 会 给 研究 对 象 、 变 体 区 域 以 及 所 有 样 
本 层面 的 变 体 (识别 变 体 ) 分 配 唯 一 且 稳 定 的 编号 ID; 
wwPDB 、BMRB 也 均 会 为 数据 提交 者 提交 的 数据 分 配 
相应 编号 人 D。 可 见 , 数据 知识 库 分 配 编号 ID 已 成 为 
科研 人 员 投 稿 学 术 期 刊 论文 、 发 表 数 据 期 刊 论文 、 注 
释 及 引用 自己 和 他 人 数据 集 的 既成 规范 。 

4.3 ”应 说 明 使 用 风险 、 产 权 保 护 、 使 用 条 款 等 

互联 网 上 的 内 容 服 务 网 站 通常 都 有 若干 声明 ,本 
文 所 说 的 免责 声明 主要 是 指数 据 知 识 库 在 数据 管理 政 
策 上 所 涉及 的 声明 。 本 次 调研 的 多 个 数据 知识 库 都 涉 
及 相关 免责 声明 , 由 于 生命 科学 领域 的 科研 数据 内 容 
多 样 、 来 源 各 异 且 性 质 复杂 , 大 多 数 的 数据 知识 库 都 
会 有 相应 的 免责 声明 , 可 细 化 为 三 项 重点 : 

(1) 数据 使 用 风险 的 免责 声明 。 数 据 知 识 库 通常 
会 提出 : 数据 知识 库 不 会 出 于 任何 目的 ， 对 软件 或 数 
据 的 适用 性 和 准确 性 作出 说 明 , 也 不 会 作出 任何 保 
证 、 明 示 或 暗示 , 包括 可 销售 性 和 对 于 特定 用 途 的 适 
用 性 , 用 户 需 自 己 承担 风险 。 

(2) 数据 知识 产权 的 免责 声明 。 数 据 知 识 库 一 般 
不 负责 评估 原始 数据 的 提交 者 对 已 提交 的 全 部 或 部 分 
数据 要 求 专 利 、 版 权 或 其 他 知识 产权 的 有 效 性 , 也 没 
有 权利 将 数据 转移 给 第 三 方 ,同时 ,不 能 保证 使 用 软 
件 或 数据 不 会 侵犯 任何 第 三 方 的 专利 、 版 权 、 商 标 或 
其 他 权利 。 

(3) 数据 访问 过 程 的 免责 声明 。 用 户 对 数据 库 中 
数据 的 任何 使 用 或 者 误 用 ,以 及 对 于 通过 任何 与 数据 
库 相 关 的 浏览 器 、 客 户 端 或 第 三 方 软件 进行 访问 时 出 
现 的 任何 问题 , 数据库 不 承担 任何 责任 。 

此 外 , 一 般 国外 网 站 都 有 的 使 用 条 款 ( 如 拒绝 批量 
下 载 等 ) 和 隐私 条 款 ( 如 对 使 用 日 志 的 妥善 处 理 ) 等 。 免 
责 声 明 是 数据 知识 库 管 理 规范 中 必 不 可 少 的 内 容 , 其 
中 ,数据 使 用 风险 和 数据 知识 产权 是 比较 特殊 的 免责 
声明 ,可 按照 实际 情况 进一步 条 款 化 。 
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4.4 要 求 数据 提交 者 发 布 最 新 版 本 的 数据 

存储 的 科研 数据 通常 有 三 种 情况 : 科研 数据 本 身 
已 经 不 会 再 做 任何 更 动 , 科研 数据 来 自 于 一 次 性 的 实 
验 或 观察 , 经 过 整理 后 所 提交 的 数据 已 是 最 终 版 本 ; 
数据 本 身 是 长 期 动态 更 新 的 ,这 类 数据 随 着 时 间 的 变 
化 会 不 断 增加 实质 性 内 容 , 因此 很 难 界 定 所 谓 的 最 终 
版 本 , 反而 需要 以 V1, V2, V3，…Va 的 形式 标识 各 个 
时 间 段 的 不 同 版 本 ; 出 于 不 同 阶段 对 数据 发 布 或 出 版 
的 要 求 以 及 对 数据 公布 (参考 4.1 节 ) 的 情况 ,可 能 会 
内 容 完整 性 上 的 差异 , 需要 进行 数据 版 本 的 区 别 和 管 
理 , 这 种 情况 可 能 会 与 前 两 种 情况 存在 重合 ; 另外 有 
一 种 特殊 情况 , 或 称 为 第 4 种 情况 ,数据 可 能 被 其 他 
人 或 科研 团队 本 身 发 现存 在 错误 、 环 首 和 遗漏 等 问题 ， 
需要 予以 更 新 。 在 具体 实施 时 需要 注意 以 下 4 点 问题 : 

(1) 数据 知识 库 只 呈现 数据 的 最 新 版 本 ， 但 不 删 
除 过 去 所 有 版 本 的 数据 。INSDC 声明 , 数据 提交 者 对 
数据 进行 修改 和 更 新 时 , 修正 后 的 数据 将 从 下 一 个 数 
据 知识 库 版 本 中 删除 , 但 所 有 的 数据 都 将 继续 通过 登 
录 号 实现 永久 访问 。 有 的 数据 库 对 修正 后 的 数据 文件 
赋予 新 的 登录 查询 号 , 保证 用 户 对 每 个 版 面 的 持久 访 
问 , 并 同时 提供 原始 数据 集 和 修正 后 的 数据 文件 。 

(2) 每 次 更 新 或 修改 数据 版 本 时 都 需要 提交 说 明 
文件 。 例 如 , ClinicalTrials.gov 规定 数据 提交 者 在 对 数 
据 进 行 修改 或 重新 分 配 数 据 知识 库 的 修改 版 本 时 , 需 
要 用 完整 的 说 明文 档 进 行 声 明 或 申请 权限 。 

(3) 数据 知识 库 管理 者 更 动 数据 的 特殊 情况 和 实 
施 办 法 。 例 如 , BMRB 规定 数据 知识 库 的 工作 人 员 可 
以 修改 文件 以 更 新 引用 , 或 升级 文件 以 保持 数据 格式 
的 一 致 性 。 但 需要 在 修订 版 本 文件 的 开头 添加 描述 修 
订 日 期 、 修 订 作 者 的 声明 。 

(4) 数据 知识 库 的 每 一 个 新 版 本 是 补充 原 有 数据 
集 的 ， 而 非 蔡 换 。 在 修改 原始 数据 集 时 ， 有 的 数据 知识 
库 ( 例 如 PRIDE) 会 为 提交 者 提供 FTP 详细 资料 用 来 上 
传 数据 ， 并 将 添加 到 原来 的 数据 集 ， 而 不 是 重新 提交 
整个 数据 集 。 综 上 ,就 学 科 数 据 知识 库 而 言 ,通常 会 令 
数据 提交 者 发 布 最 新 版 本 的 数据 , 较 少 或 多 数 不 愿 以 
新 上 传 的 数据 集 覆 盖 已 有 的 数据 集 。 


5 数据 使 用 规范 
无 论 是 数据 的 提交 还 是 数据 的 管理 , 数据 知识 库 
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的 最 终 目 的 是 为 科研 人 员 提 供 数据 使 用 和 传播 服务 ， 
这 才 是 真正 的 价值 所 在 。 数 据 知 识 库 出 于 对 数据 提交 
者 权益 的 保护 以 及 对 数据 使 用 者 的 责任 ,必须 制定 数 
据 使 用 规范 ,为 学 术 社 群 提供 良好 且 健 康 的 数据 共享 
环境 。 

5.1 应 明确 数据 访问 权 责 

数据 知识 库 的 用 户 通常 可 以 上 传 、 浏 览 、 下 载 科 
研 数据 甚至 使 用 数据 知识 库 提供 的 工具 对 科研 数据 进 
行 分 析 , 但 有 些 数据 库 会 区 分 不 同类 型 的 用 户 ， 如 注 
册 用 户 、 高 级 用 户 和 普通 用 户 等 。 有 些 数据 知识 库 要 
求 科 研 人 员 注 册 后 才能 够 上 传 或 下 载 科 研 数 据 ( 作 为 
数据 贡献 者 之 一 才能 作为 数据 使 用 者 )， 有 些 数据 知识 
库 要 求 必须 成 为 会 员 ( 科 人 研 机 构 或 项 目 团队 支付 或 分 
担 一 部 分 的 数据 知识 库 维 护 费 用 )， 有 些 数据 知识 库 不 
需要 用 户 经 过 注册 或 成 为 会 员 就 可 以 使 用 。 

核酸 序列 、 蛋 白质 序列 、 分 子 和 超 分 子 结 构 、 神 
经 科学 、 组 学 和 生命 科学 学 科 共 同体 资源 类 别 下 的 数 
据 知 识 库 均 有 数据 访问 政策 的 内 容 : 

(1) 一 般 情况 下 ,数据 知识 库 普 遍 支持 科研 数据 
的 开放 共享 和 传播 , 在 使 用 政策 中 说 明了 可 以 自由 地 
下 载 、 使 用 或 传播 。 

(2) 若干 数据 知识 库 还 会 考虑 个 别 数据 提供 者 在 
提交 时 出 于 商业 合同 (例如 数据 集中 存在 采购 得 来 的 
授权 数据 )、 项 目 资 助 者 要 求 (例如 有 可 能 提 到 可 以 浏 
览 、 下 载 和 利用 数据 验证 科研 成 果 , 但 不 允许 利用 数 
据 形 成 新 的 产品 )、 项 目 保护 需求 (例如 尚未 完成 或 成 
果 尚 未 发 表 ) 等 ,对 若干 使 用 条 件 作出 限制 或 者 写 明 前 
提 条 件 。 

(3) 个 别 数 据 知 识 库 人 允许 用 户 以 编程 的 方式 开发 
数据 分 析 流 程 、 网 站 或 数据 视图 , 以便 更 方便 快捷 地 
访问 数据 和 集成 公共 数据 , 例如 EMBL-EBI。 

(4) 有 些 数据 使 用 者 出 于 检验 科研 成 果 或 进行 其 
他 方面 科研 等 的 目的 , 具有 接触 某 一 数据 集 的 受 测 对 
象 的 需求 ， 而 数据 知识 库 必 须 保 障 数据 提供 者 的 相关 
权益 , 通常 采取 的 做 法 是 让 数据 使 用 者 提交 申请 进行 
审批 。 

(5) 数据 知识 库 必 须 有 相关 声明 , 在 使 用 数据 进 
行 专利 申请 时 ， 需 要 获得 数据 提供 者 的 许可 或 科研 机 
构 、 科 研 资助 机 构 的 商业 用 途 许 可 证 。 例 如 , TCIA 的 
相关 规定 。 


5.2 ”规范 数据 引用 格式 

科研 人 员 采 集 、 整 理 、 汇 总 、 分 析 和 提供 科研 数 
据 是 一 种 支持 和 促进 科学 发 展 的 工作 ， 人 们 利用 这 些 
数据 研究 新 的 问题 , 也 不 应 忽视 数据 提供 者 的 科研 贡 
献 。 因 此 , 科研 数据 的 引用 不 仅 对 于 完善 科研 评价 体 
系 具有 一 定 的 作用 ,而 且 对 数据 知识 库 能 够 长 期 发 展 
也 扮演 着 关键 角色 。 

数据 知识 库 的 数据 引用 有 若干 种 情况 : 要 求 引用 
数据 集 的 标识 符 ,可 能 是 数字 资源 标识 符 或 数据 知识 
库 分 配 的 编号 ID; 要 求 引用 数据 知识 库 本 身 的 名 称 及 
其 网 址 ; 要 求 引用 数据 知识 库 创 建 者 所 撰写 的 一 篇 论 


总 第 265 期 2015 年 第 12 期 


密 信息 , 采取 预防 措施 以 保护 机 密 数 据 的 非 授 权 使 用 。 

(4) 非 专 属 权 。 例 如 ，ClinicalTrials.gov 声明 用 户 
不 拥有 数据 知识 库 任 何 部 分 的 任何 专 有 权 ,， 也 不 能 代 
表 数 据 库 或 其 任何 部 分 。 


6 结 语 


(1) 政策 管理 规范 框架 

不 同学 科 领 域 的 学 术 规范 各 有 不 同 ,即便 在 生命 
科学 领域 中 的 子 类 别 中 也 略 有 差异 ， 因 此 学 科 数 据 知 
识 库 的 政策 研究 重点 不 在 “政策 应 该 是 什么 ”而 是 “ 政 


文 。 生 命 科学 领域 数据 知识 库 普遍 倾向 引用 数据 知识 
库 及 其 信息 。 例 如 : 

(1) ITIS 的 引文 格式 : 检索 [月 、 日 、 年 ], 来 自分 
类 学 信息 系统 在 线 数据 库 , http:/www.itis.gov; 

(2) IRD 推荐 的 引用 方式 : Squires et al. (2012) 流 
感 研 究 数据 库 : 用 于 流感 研究 和 监测 的 综合 生物 信息 
学 资源 。 流 感 及 其 他 呼吸 道 病毒 DOI: 10.1111/j.1750- 
2659.2011.00331.x 等 。 
5.3 个别 数 据 知 识 库 需 要 明确 数据 授权 许可 

数据 授权 许可 协议 是 数据 开放 共享 的 权利 规范 ， 
能 够 为 进一步 发 挥 科研 数据 的 巨大 科学 价值 、 经 济 价 
值 、 社 会 价值 起 到 保驾 护航 的 作用 。 数 据 授权 许可 证 
是 一 整套 的 规范 , 涉及 到 使 用 者 被 允许 进行 的 行为 活 
动 : 浏览 阅读 、 下 载 存储 、 复 制 传播 、 内 容重 用 、 内 
容 挖掘 、 信 息 抽 取 、 内 容 汇编 、 重 制 衍 生 、 附 加 许可 、 
商业 使 用 等 。 目 前 , 数据 知识 库 所 讨论 的 授权 许可 主 
要 着 重 在 元 数据 和 数据 的 许可 证 协议 (License), 通常 
采用 知识 共享 协议 。 

生命 科学 学 科 共 同体 资源 类 别 下 的 数据 知识 库 的 
政策 指出 : 

(1) 禁止 以 营利 为 目的 的 传播 。 例如 , MGI 规定 事 
先 未 得 到 明确 的 书面 许可 ,数据 禁止 任何 用 于 商业 用 
途 的 传播 和 使 用 。 

(2) 禁止 商业 用 途 的 信息 抽取 和 利用 。 例 如 ， 
ClinicalTrials.gov 规定 用 户 不 得 从 数据 知识 库 中 提取 
电子 邮件 地 址 用 于 营销 或 其 他 促销 行为 。 

(3) 特殊 信息 的 使 用 授权 。 例如, 美国 国家 吸毒 和 
艾滋 病毒 数据 存档 项 目 规定 对 于 机 密 数 据 ， 获 得 机 密 
数据 任何 部 分 的 研究 人 员 和 机 构 有 义务 保护 个 人 的 机 


策 制定 需要 考虑 什么 ”。 建议 根据 生命 科学 领域 课题 的 
研究 特性 , 结合 表 2 的 管理 规范 框架 , 实行 相关 措施 。 
表 2 生命 科学 数据 知识 库 的 管理 规范 框架 


年 储 的 数据 类 型 不 一 样 ， 当 容 hs 
i el 居 类 型 不 一 样 ， 数据 内 容 也 不 
数据 > 
提交 数据 格式 规范 依据 学 科 社 群 约定 成 俗 的 规范 进行 制定 。 
政策 数据 来 源 要 求 符合 科学 伦理 和 学 术 道德 。 


数据 归属 说 明 保证 数据 提供 者 的 精神 权利 和 财产 权利 。 

数据 公开 。 数据 知识 库 要 求 数据 尽 可 能 开放 共享 。 
数据 数据 注册 。 数据 知识 库 给 数据 分 配 编号 [D 作为 标识 符 。 
管理 免责 声明 ”使 用 风险 ; 知识 产权 ; 访问 过 程 ; 其 他 。 
声 日 pa a a 
El 站 所 版本 管理 更新 或 修改 数 据 版 本 时 部 过 要 提交 说 明 


通常 可 以 下 载 、 使 用 或 传播 ; 特殊 情 
况 ， 另 定 审核 办 法 。 


数据 访问 


从 让 训 报 推荐 引用 数据 知识 库 名 称 、 网 址 以 及 数据 注册 的 纺 
号 ID。 
规范 Eh 


”通常 采用 CC/BY 协议 ,也 强调 特殊 保密 
数据 授权 许可 和 非 专属 权 。 


(2) 实践 推广 的 建议 

本 研究 的 实践 意义 有 两 方面 : 如 果 机 构 要 建立 学 
科 数 据 知 识 库 或 以 机 构 知 识 库 存储 和 传播 科学 数据 
时 ， 可 以 参考 本 文 所 提出 的 管理 规范 框架 ( 表 2); 如 果 
图 书馆 员 要 推广 国内 外 合适 的 学 科 数 据 知识 库 给 科研 
人 员 时 , 可 以 从 学 科 分 类 以 及 政策 完善 性 两 方面 进行 
推介 。 

(3) 研究 局 限 

需要 注意 的 是 , 对 研究 结论 进行 推广 时 还 需 进行 
其 他 新 的 验证 。 如 果 在 我 国 制定 有 关 的 政策 内 容 , 建 
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议 结合 科研 人 员 的 需求 和 政策 专家 团队 的 咨询 意见 。 
另外 , 本 研究 没有 对 生命 科学 领域 数据 知识 库 政策 要 
素 的 时 序 变化 进行 分 析 ， 对 政策 执行 细节 也 还 有 所 欠 
缺 , 这 可 能 需要 后 续 与 该 领域 的 专家 进行 讨论 。 

(4) 未 来 研究 

在 本 研究 的 基础 上 , 结合 对 科研 人 员 的 访谈 调查 ， 
形成 一 系列 实践 指南 ,如 《学 科 数 据 管理 计划 指南 》 等 。 

(致谢 : 中 国 科 学 院 文献 情报 中 心 组 织 编译 了 《 生命 科学 
数据 知识 库 案 例 汇编 》 报 告 , 并 在 机 构 知 识 库 (ir.las.ac.cn) 上 
提供 开放 共享 ,为 本 研究 提供 了 参考 。) 
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The Policy Research and Analysis of Subject Data Repository 
Cases Study of Life Sciences 


Sun Yinan!” Ku Liping! Song Xiufang’ Liu Jingjing” Jiang Xian2” 
!(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 
(Wuhan Library, Chinese Academy of Sciences, Wuhan 430071, China) 
(University of Chinese Academy of Sciences, Beijing 100049, China) 


Abstract: [Objective] For policy implementation recommodation, this study focuses on life sciences data repositories 
policies. [Methods] By artificial reading, screening method to investigate 38 data repositories in the field of life 
sciences having a clear policy statements, this paper summarizes and analyzes these policy statements mainly from data 
repository in data submission, data management and data using. [Results] The stakeholder groups of Subject Data 
Repository (data administrator, data contributors and data users) have different data rights management specification. 
[Limitations] Just simply investigate 38 cases in the field of life sciences, without analyzing the temporal change of 
policy elements and lacked policy implementation details. [Conclusions] Good policy system of subject data repository 
should include: data submission policy (including content definition, format specification, source requirements and 
belonging instructions), data management statement (including data disclosure, data registration, disclaimer and data 
version management), and use of data specification (including data access, data recommended reference and data 
licensing). 
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